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数字 图 书馆 学 者 库 构 建 方式 研究 


四 郑 兄 曾 建 勋 
中 国 科 学 技术 信息 研究 所 ”北京 100038 


摘 要 : [目的 /意义 ] 从 数字 图 书馆 资源 利用 与 整理 角度 出 发 设计 学 者 数据 识别 与 学 者 数据 库 的 构建 方式 ,帮助 提升 数字 


图 书馆 资源 建设 效率 与 特色 服务 。 [ 方法 “过程 ] 从 学 者 遗 选 与 收录 来 源 、 学 者 描述 内 容 及 其 框架 、 
学 者 库 应 用 方式 四 个 方面 调研 国内 外 学 者 库 研 究 及 实践 情况 。 通 过 
达 方 式 , 提 出 基于 数字 图 书馆 的 学 者 库 构 建 流 程 和 总 体 框 架 。 
进 策略 ,强调 学 者 库 要 融入 科研 管理 过 程 ,发 动 学 者 参与 建设 ,增加 展示 与 宣传 效果 ,与 人 才 识 别 相 名 
合 , 兼 顾 学 者 存档 与 学 者 画像 功能 ,拓展 精准 服务 功能 。 


团队 和 专题 资源 建设 ;与 知识 管理 相 结 
养 键 词 : 学 者 库 ”数字 图 书馆 。 机 构 知 识 库 “学 者 识别 
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学 者 库 构 建 与 
分 析 学 者 特征 属性 ,研究 学 者 数据 结构 化 表 
[ 结果/ 结论] 提出 学 者 库 构 建 与 应 用 齐头并进 的 推 
告 合 ,服务 于 


一 


CD 


加 学 者 库 以 学 者 为 资源 组 织 对 象 开 展 学 术 特征 信息 
描述 ,是 存储 \ 检 索 ` 利 用 和 发 现 学 者 科研 产 出 的 数据 
系 强 ， 学 者 库 不 仅 对 学 者 学 术 特 征 、 属 性 和 学 术 成 果 
进 和 六 著录 识别 ,而 且 对 学 者 学 术 关 系 学 术 生 涯 和 学 术 


数字 图 书馆 的 学 者 库 总 体 框架 和 构建 流程 设计 ,采用 
多 源 数 据 整 合 的 方式 优化 学 者 库 构 建 的 基础 资源 ,并 
提出 学 者 库 构建 与 应 用 推进 策略 。 


1 国内 外 学 者 库 建设 现状 


外 四 浊 行 措 述 、 链接 ;其 形成 的 学 术 资 源 集 ,不 仅 是 构 
建议 移 知 识 库 的 基础 单元 ,也 是 评价 学 者 学 术 绩 效 的 
基 床 元素, 还 是 展示 机 构 实 力 和 学 者 风采 的 基本 素 
入。 因此 ,学 者 库 构 建 不 仅 是 数字 图 书馆 与 科研 平 
台 备 色 资 源 建设 的 重要 课题 ， 还 成 为 图 书馆 和 科研 组 

织 糖 准 服务 于 科研 评价 和 科研 人 员 的 重要 措施 。 

OO 近年 来 ,数据 库 商 .高校 和 科研 机 构 及 部 分 科研 项 

目 资助 机 构 都 基于 自 建 的 数字 图 书馆 资源 和 平台 开展 
了 学 者 库 构 建 的 实践 探索 。 其 中 ,高 校 和 科研 机 构 及 
科研 项 目 资助 常 以 满足 自身 的 需求 为 导向 ,构建 中 采 
用 人 工 方式 ,或 借助 数字 图 书馆 技术 与 平台 提升 学 者 
库 的 自动 化 水 平 ;数据 库 商 的 学 者 库 构 建 则 注重 满足 
各 类 用 户 的 应 用 需求 ,全 面 覆 盖 各 学 科 、 机 构 的 学 者 ， 
推进 构建 流程 的 自动 化 ,是 当前 研究 与 实践 的 重点 。 
然而 以 商业 数据 库 或 知识 机 构 库 资源 为 基础 数据 , 仅 


侧重 于 学 术 产 出 的 集成 与 计量 ,存在 无 法 全 面 揭示 学 
者 特征 和 无 法 全 面 涵 盖 学 者 学 术 成 果 的 现象 。 为 此 ， 


本 文 拟 在 完善 学 者 库 元 数据 体系 的 基础 上 ,优化 基于 


学 者 库 的 建设 主要 涉及 学 者 科研 活动 .交流 行为 、 
学 术 关系 、 产 出 成 果 的 揭示 ,以 及 学 者 评价 与 展示 、 学 
者 识别 与 服务 等 方面 。 本 文 对 国内 外 学 者 库 收 录 范 
围 学 者 迟 选 方式 进行 分 析 , 对 学 者 描述 系统 和 体系 进 
行 调研 ,对 学 者 库 构 建 方 式 及 应 用 现状 进行 梳理 ,分 析 
学 者 库 构 建 的 必要 步骤 。 其 中 ,学 者 六 选 方式 和 收录 
来 源 影 响 学 者 库 构 建 效果 ,学 者 特征 描述 是 构建 学 者 
库 的 关键 环节 和 有 效应 用 的 前 提 。 
1.1 学 者 六 选 与 收录 来 源 
不 同 的 构建 目标 使 学 者 库 拥 有 不 同 的 学 者 洲 选 范 
围 和 资源 获取 方式 。 商 业 数 据 库 和 学 术 搜 索引 擎 根据 
一 定 的 筛选 条 件 ,选择 具有 科研 成 果 的 学 者 为 目标 学 
者 建立 学 者 库 。AMiner 以 人 工 智 能 等 领域 专家 为 目 
标 遂 选 范围 ,将 相关 领域 的 论文 进行 集成 整合 ,通过 大 
规模 的 计算 得 出 目标 学 者 。 百 度 学 术 为 具有 一 定 发 文 
与 被 引 量 的 学 者 自动 聚合 学 术 成 果 , 其 他 学 者 也 能 
通过 认领 成 果 构建 自己 的 主页 ,目前 共生 成 400 多 万 


* 本 文系 国家 社会 科学 基金 项 目 "多 源 异 构 数 据 融合 的 图 书馆 用 户 画 像 研究 ”( 项 目 编号 :18BTQ031 ) 研究 成 果 之 一 。 
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个 学 者 主页 。 通 过 自动 聚合 学 者 信息 ,商业 数据 库 和 
学 术 搜索 引擎 构建 了 大 量 的 学 者 页 面 ,但 学 者 认领 学 
术 成 果 和 页 面 数量 较 少 , 如 中 国 知 网 学 者 库 汇集 了 
1 200 万 学 者 ,但 仅 有 10 万 人 认领 成 果 信 息 ”。 高 校 、 
科研 机 构 所 构建 的 学 者 库 则 以 本 单位 学 者 为 学 者 游 选 
范围 ,如 西安 交通 大 学 XJTU Academic Hub 规定 提交 
者 身份 限定 于 本 校 教师 .科研 人 员 在 读 研究 生 、 本 科 
生 及 本 校 其 他 教工 。 

学 术 成 果 的 收录 范围 影响 学 者 库 构建 的 效果 。 数 
据 库 商 常 以 其 收录 的 数据 为 基础 ,如 中 国 知 网 学 者 库 
以 CNKI 中 文 期 刊 全 文 数据 库 为 基础 。 这 种 方式 受 限 
于 其 收录 资源 的 范围 ,无 法 全 面 揭示 学 者 的 学 术 成 果 ， 
也 难以 涵盖 学 术 成 果 之 外 的 学 者 信息 ,而 集成 整合 多 
源 数据 能 够 获得 更 丰富 、 完 整 的 学 者 成 果 。 百 度 学 术 
发 挥 数字 图 书馆 分 布 式 资源 与 运行 技术 优势 ,通过 与 
内 容 供应 商 合作 获取 题 录 数据 ,采用 ALPMH 协议 等 
的 喝 数 据 收割 技术 对 开放 资源 进行 收割 ,并 通过 搜索 
引 事 他 取 数 据 , 集 合 学 者 中 外 学 术 成 果 。 对 于 高 校 和 
科研 机 构 来 说 ,其 常 以 购买 和 自 建 的 数字 学 术 资 源 为 


o 


发 现 服务 搜索 系统 为 提高 学 者 语义 信息 的 抽取 与 描 
述 ,构建 可 存储 、 可 运算 的 学 者 描述 框架 ,实现 学 者 及 
相关 科研 实体 .关系 的 表达 ,可 以 成 为 优化 数字 图 书馆 
学 者 描述 与 揭示 方式 的 参考 。AMiner 建立 学 者 描述 
本 体 , 通 过 拓展 FOAF 本 体 框架 ,定义 包含 研究 者 和 出 
版 物 两 个 类 型 实体 和 24 个 属性 、 合 作者 和 创作 两 对 关 
系 , 更 好 地 推理 与 挖掘 学 术 实体 间 的 关系 ,得 出 社交 能 
力 活跃 度 等 更 多 元 特征 指标 ”。 为 了 将 微软 学 术 图 谱 
(MAG) 和 AMiner 学 术 图 谱 两 个 亿 级 异 构 数 据 进 行 融 
合 , 开 放学 术 图 谱 ( OAG ) 建立 venue schema ,author sche- 
ma .paper schema 实体 和 属性 框架 ,建立 6 500 万 个 匹配 
关系 ,对 出 版 者 .论文 和 作者 进行 结构 化 数据 描述 ” 。 
1.3 学 者 库 构建 方式 

目前 ,大 部 分 学 者 库 结 合 自动 化 与 众 包 的 思想 , 基 
于 数字 图 书馆 的 数据 库 文献 资源 自动 构建 学 者 库 ,之 
后 采用 多 种 方式 鼓励 学 者 人 工 审 核 与 完善 学 者 信息 。 

在 资源 组 织 与 描述 基础 上 ,数字 图 书馆 自动 化 构 
建 学 者 库 的 关键 是 实现 学 者 学 术 成 果 与 学 者 的 关联 。 
关联 过 程 中 ,不 可 避免 地 出 现 学 者 姓名 歧义 现象 ,需要 


基础 进行 构建 ,如 清华 大 学 西安 交通 大 学 等 高 校 以 
WaS ET.Natmre \Science 等 数据 库 为 收录 范围 ,并 与 机 
梅 天 识 库 的 科研 成 果 资 源 相 结合 " ,同时 辅 以 机 构 学 
着 漳 交 的 个 人 信息 ,这 种 方式 在 初始 建设 环节 常常 可 
以 吃 到 不 错 效果 ,但 后 续 的 维护 更 新 难以 保证 信息 的 
时 活性 和 准确 性 。 
1. 亿 学 者 描述 内 容 及 其 框架 

"三 学 者 库 的 构建 需要 对 学 者 特征 \ 成 果 和 关系 进行 
组 绢 和 描述 ,以 此 实现 学 者 库 的 展示 和 应 用 。 数 据 商 、 
科研 机 构 和 学 者 唯一 标识 符 系统 通过 对 数据 库 资源 整 
合 、 网 络 息 取 、 科 研 成 果 登 记 等 不 同方 式 对 学 者 数据 进 
行 集成 ,描述 内 容 和 效果 具有 差异 :ResearcherID、OR- 
CID 等 唯一 标识 符 面向 全 球 学 者 ,能 够 最 大 范围 地 展 
示 学 者 引文 . 合 著 等 学 术 合 作 关 系 "。 数 据 商 、 高 校 与 
科研 机 构 构 建 的 学 者 库 对 学 者 发 文 .被 引 等 描述 项 揭 
示 较为 充分 .及 时 ,主要 集成 了 学 术 经 历 发文 量 分 布 、 
学 科 主题 .合作 者 等 特征 信息 等 ”, 基 于 数据 库 和 知识 


区 分 同名 学 者 不 同 的 身份 信息 与 学 术 资 源 ,这 也 是 当 
前 研究 与 实践 的 难点 。 为 在 海量 学 术 资源 中 准确 定位 
学 者 及 其 科研 成 果 ,AMiner 采用 网 络 分 析 法 ,根据 实 
体 关 系 权 值 ,分 析 重 名 学 者 自我 中 心 网 络 特点 和 属于 
不 同 团 块 的 特性 ,通过 集团 划分 来 区 分 不 同 实体 ,实现 
学 者 人 名 消 歧 " ;中 国 知 网 .万 方 主要 通过 “姓名 + 单 
位 ”的 组 合 方式 进行 学 者 消 歧 ”" ;清华 大 学 学 者 库 
挑选 具有 价值 的 学 者 为 其 设立 学 者 标识 符 THUID , 启 
动 发 文 自动 追踪 项 目 , 制定 完整 的 分 析 和 追踪 策 
略 '" ;还 有 一 些 研究 与 实践 则 针对 文献 作者 姓名 的 消 
歧 方 法 展开 探索  ” ,或 是 试图 通过 关联 ORCID .Re- 
searcherID 等 唯一 标识 符 和 建立 规范 文档 进行 学 者 识 
别 。 

在 促进 学 者 人 工 审核 与 完善 学 者 信息 方面 ,当前 
学 者 库 主 要 通过 科研 管理 的 手段 和 设置 资源 权限 奖励 
的 方法 ,促进 学 者 参与 科研 成 果 注 册 登 记 。 厦 门 大 学 
将 学 者 库 作为 科研 信息 管理 平台 ,与 统一 身份 认证 平 


库 的 资源 优势 ,提供 全 文 或 链接 。 高 校 与 机 构 学 者 库 
通过 本 单位 获取 职务 职称 、 茶 誉 等 较为 全 面 的 学 者 基 
本 信息 。 

当前 大 部 分 的 学 者 库 从 数据 库 抽取 学 者 机 构 \ 合 
作者 等 信息 ,对 数据 库 中 学 者 相关 的 文献 元 数据 进行 
动态 计量 ,但 各 科研 实体 间 的 关系 揭示 不 够 充分 ,没有 
从 语义 层面 对 学 者 信息 进行 推理 补充。 而 一 些 知 识 


台 进行 数据 共享 ,根据 学 者 反映 的 信息 补充 、 更 正 学 者 
库 数 据 "” 。ResearchGate 需要 学 者 完成 注册 才能 使 用 
库 内 资源 ,通过 学 者 自主 注册 与 库 中 已 有 学 术 资 源 、 学 
者 信息 进行 匹配 ,提交 学 术 成 果 的 文档 链接 或 相关 证 
明 ,经 过 审核 后 完成 学 者 注册 。 在 理论 研究 方面 ,也 有 
研究 者 以 机 构 库 .学 者 库 为 基础 ,在 学 者 甄别 的 基础 
上 ,设计 学 者 标识 .甄别 匹配 、 推 送 认 领 .补充 认领 等 学 
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者 学 术 成 果 认 领 流程 “|。 
1.4 学 者 库 应 用 方式 

大 多 数 的 学 者 库 都 设立 学 者 检索 页 面 和 学 者 主 
页 ,用 于 展示 学 者 的 基本 信息 、 研 究 成 果 及 动态 。 澳 门 
大 学 学 者 库 设 置 ORCID .题名 、 作 者 等 14 个 检索 字段 ， 
支持 图 片 检 索 ,高 级 检索 和 专业 检索 。AMiner 学 者 
库 成 为 搜狗 学 术 搜索 数据 提供 者 '” ,增加 学 者 数据 使 
用 频次 。 清 华 大 学 .兰州 大 学 .澳门 大 学 等 高 校 的 学 者 


及 机 构 知识 库 构 建 的 有 效 手段 ;与 科研 管理 .科研 评价 
的 结合 还 不 够 紧密 ,在 专家 发 现 和 人 才 评 价 绩效 考核 
方面 没有 发 挥 出 最 大 成 效 。 


2 学 者 特征 及 其 元 数据 模型 


基于 数字 图 书馆 的 学 者 库 既 要 反映 学 者 各 项 基本 
信息 ,应 用 于 文献 服务 中 的 学 者 消 收 ,又 要 深刻 揭示 学 
者 学 术 属 性 ,为 更 深层 次 的 个 性 化 服务 提供 数据 基础 。 


库 在 首页 推送 本 机 构 学 者 在 Cell Nature 和 Science 等 
顶尖 学 术 期 刊 发 表 的 论文 ;设置 “推送 高 被 引 /热点 文 
章 " 和 “本 期 推荐 "栏目 ,定期 推荐 热门 文章 和 学 者 。 
厦门 大 学 学 者 库 与 科研 产 出 相关 联 , 成 为 年 度 绩效 考 
核 , 职 称 评定 ,项 目 申报 和 管理 的 基础 数据 ,设置 独立 
计价 指标 库 , 利 用 可 视 化 工具 为 学 校 管理 层 提供 决策 
支持 ;清华 大 学 学 者 库 于 2017 年 成 为 职称 申报 的 
学 术 论 文 数据 来 源 和 教师 年 终 考核 工作 的 学 术 论文 数 


CR 


己 除 了 服务 学 者 和 科研 部 门 ,学 者 库 在 人 才 挖 气 领 
域 邮 得 以 利用 。AMiner 学 者 库 以 智能 服务 为 基础 , 构 
建国 家 自然 科学 基金 委员 会 专家 Profile 系统 ,并 为 科 
按 半 构建 专家 画像 库 ;建立 阿里 巴巴 人 才 地 图 .CFF 专 


学 者 库 应 对 反映 学 者 属性 特征 的 元 数据 进行 有 效 组 
织 , 结 合 应 用 目标 和 需求 ,从 海量 的 学 术 资 源 中 提取 和 
识别 元 素 ,形成 结构 化 的 学 者 信息 描述 框架 ,需要 通过 
对 学 者 信息 的 有 序 组 织 ,学 术 属 性 的 识别 与 揭示 ,准确 
把 握 学 者 特征 ,动态 反映 学 者 学 术 轨 迹 。 
2.1 学 者 特征 属性 分 析 

学 者 是 在 科学 文化 .教育 领域 专门 从 事 研究 工作 
的 人 员 ' ,具有 相应 特征 实体 和 属性 ,如 接受 的 专业 
教育 ` 拥 有 的 高 等 教育 学 位 、. 所 在 单位 性 质 (科研 院 所 、 
高 校 ,企业 研发 部 门 等 ) 、 从 事 的 科学 研究 和 生产 的 专 
业 领 域 \ 学 科 或 专业 特长 ;公开 发 表 的 论文 .拥有 的 专 
利 、 获 得 学 术 荣 誉 .拥有 的 学 术 关 系 网 络 等 。 每 个 学 者 
又 因 学 术 经 历 、 学 科 领 域 的 不 同 而 拥有 不 同 的 特征 ,如 


家 能 统 ,服务 于 企业 与 科研 机 构 。ResearchGate 通过 学 
若 峡 机 构 的 关联 ,计算 机 构 科研 水 平 帮助 学 者 快速 查 
找 达 有 合作 潜力 的 项 目 、 机 构 与 学 者 并 提供 科研 招聘 
胺 盟 , 机 构 与 个 人 能 够 通过 ResearchCate 雇佣 高 质量 
研究 人 员 ” 1 。 

-三 总 之 ,近年 来 学 者 库 得 到 快速 发 展 ,人 名 消 靶 ,学 
术 硬 果 自 动 追 踪 、 建 立 学 者 唯一 标识 符 等 成 为 学 者 信 
息 及 


息 及 其 资源 采集 和 整合 的 常用 技术 手段 和 方法 ;人 工 
智能 ,机 器 学 习 已 开始 运用 于 学 者 库 建 设 与 应 用 之 中 ， 
通过 语义 挖掘 深度 学 习 ,建立 本 体 或 结构 化 的 描述 体 
系 对 学 者 进行 揭示 。 当 然 学 者 库 在 建设 过 程 中 ,依然 
存在 构建 方式 与 效果 不 理想 的 问题 :中 学 者 特征 揭示 
不 全 面 ,重视 对 学 术 产 出 的 集成 和 计量 ,学 者 学 术 关 系 
的 推理 和 学 者 实体 特征 的 挖掘 不 深入 ;学 者 身份 信息 
与 学 术 资 源 的 识别 与 匹配 不 够 精确 ,自动 追踪 学 者 学 
术 产 出 的 程度 不 高 。 包 数据 来 源 单 一 ,主要 基于 数字 
图 书馆 资源 建立 学 者 资源 库 , 没 有 融合 海量 的 网 络 资 


人 文 社 科 类 学 者 较 少 拥有 发 明 专 利 。 这 些 学 者 属性 分 
散在 数字 图 书馆 学 者 注册 信息 ,文献 数据 库 .学 者 个 人 
页 面 .学 术 新 闻 ,社交 网 络 等 来 源 之 中 ,可 以 反映 学 者 
各 式 各 样 的 特征 。 所 以 ,学 者 特征 的 米 选 应 面向 数字 
图 书馆 学 者 库 的 应 用 需求 ,从 学 者 识别 .科研 评价 、 人 
才 挖 据 \ 个 性 化 服务 等 应 用 场景 出 发 ,同时 注重 学 者 学 
术 特 征 的 揭示 的 全 面 性 ,设计 既 能 准确 反映 学 者 学 术 
共性 又 能 灵活 反映 学 者 个 性 特征 的 学 者 特征 属性 
框架 。 

国内 外 许多 研究 与 实证 从 不 同 角度 不 同方 法 设 
计 和 论证 学 者 模型 或 描述 框架 ,对 于 学 者 库 元 数据 结 
构 和 学 者 元 素 的 梳理 具有 重要 参考 价值 。 通 过 对 文 
献 ”- 和 Aminer、 中 国 知 网 、 百 度 学 术 、 清 华 大 学 、 北 
京 大 学 等 学 者 库 调研 ,并 以 数据 来 源 、 学 者 特征 和 应 用 
场景 为 考量 因素 ,构建 “学 者 维度 - 元 素 " 学 者 特征 属 
性 框架 ,如 图 1 所 示 。 因 为 学 者 各 属性 特征 出 现 的 频 
次 不 同 , 构 建 的 学 者 框架 应 该 允许 部 分 学 者 特征 重复 


源 ;一 些 数字 图 书馆 没 能 发 挥 出 资源 分 布 式 存 储 与 管 
理 的 优势 ,没有 集成 多 方 数据 源 全 方位 整合 学 者 学 术 
产 出 ,无 法 为 学 者 库 的 构建 提供 完整 支撑 。@) 学 者 库 
应 用 的 推动 力 不 足 ,局 限于 学 者 页 面 的 生成 .学 者 检索 
等 基础 功能 ;没有 成 为 学 者 知识 存档 ,学 者 轨迹 展示 以 


或 缺失 。 使 用 正则 表达 式 表达 各 元 素 出 现 次 数 规则 : 
“* ”表示 0 次 或 多 次 ;“?” 表 示 0 次 或 1 次 ;+ ”表示 
1 次 或 多 次 ;无 符号 表示 必须 出 现 且 仅 1 次 。 本 文 设 
计 的 学 者 库 学 者 特征 属性 框架 包括 6 个 方面 共 27 个 
元 素 :基本 信息 反映 学 者 自然 属性 ,通讯 信息 应 用 于 学 


135 


团 定 情报 三 作 


第 64 卷 第 5 期 2020 年 3 月 


ChinaXiv 合 作 期 刊 


姓名 
| * 通讯 邮箱 
ee 通讯 信息 “| * 通讯 地 址 
和 * 通 讯 电话 
* 照片 | ”基本 信息 人 
* 现代 职务 
* 现任 职称 [es 
* 所 在 机 构 学 术 成 就 i 
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?标识 符 全 
* 学 科 * 教 育 经 历 
学 术 倾向 
* 研 究 方向 | 一 一 一 一 学 术 经 历 “| * 工 作 经 历 
* 学 术 兼 职 
* 合作 学 者 、 
+ 合作 机 构 | 学 下 关系 


图 1 学 者 库 学 者 特征 属性 框架 


妆 流 .沟通 和 联络 ,二 者 是 学 者 姓名 规范 .实现 学 者 
识别 的 基础 数据 ;学 术 倾向 反映 学 者 研究 方向 ,学术 特 

,集成 的 数据 可 应 用 于 数字 图 书馆 精准 科研 服务 ; 
尝 居 关系 包括 正式 与 非 正式 学 术 交流 中 合作 的 学 者 和 
桥 税 ,反映 学 者 学 术 关 系 网 和 活跃 度 ; 荣誉 .论文 . 专 
种 莹 著 .基金 项 目 等 元 素 反映 学 者 的 学 术 成 就 ,教育 
ee 
阁 部 价 与 人 才 控 所 的 基础 。 


2.2 学 者 元 数据 模型 

学 者 库 的 构建 不 仅 是 学 者 与 文献 数据 的 匹配 和 描 
述 ,还 涉及 学 者 、 成 果 、 机 构 等 科研 实体 ,不 同 实体 与 属 
性 之 间 存 在 着 逻辑 关系 ,因此 数字 图 书馆 可 以 借鉴 实体 
关系 网 络 的 方法 ,通过 科研 实体 之 间 的 链接 ,实现 实体 
关系 与 属性 的 推理 和 挖掘 。 根 据 图 1 学 者 特征 属性 , 通 
过 实体 - 关系 - 属性 的 表达 方式 ,设计 如 图 2 所 示 的 数 
字 图 书馆 学 者 元 数据 模型 ,实现 学 者 数据 的 结构 化 表达 
与 动态 关联 。 将 论文 ,荣誉 等 学 者 成 果 和 学 校 , 机 构 等 
单位 转换 为 实体 ,并 拓展 每 个 实体 的 属性 ;学 术 倾向 无 
法 转换 为 实体 ,由 学 科 和 研究 方向 属性 直接 与 “学 者 ” 实 
体 进行 关联 ;学 术 关 系 中 的 合作 学 者 和 合作 机 构 可 以 通 
过 论文 .专利 等 实体 中 作者 与 机 构 的 属性 实现 ,一 些 学 
者 属性 是 由 学 者 与 科研 实体 相 结 合 产生 的 ,无 法 归于 学 
者 或 其 他 科研 实体 ,应 属于 实体 的 关系 。 如 学 位 毕业 
时 间 专业 属于 学 者 的 教育 经 历 ,不 是 学 校 回 有 的 属性 ; 
而 学 者 对 应 特定 学 校 才 有 相应 的 学 位 .毕业 时 间 等 属 
性 , 故 这 些 属性 应 归于 “学 习 ” 这 个 关系 中 。 

为 了 实现 不 同 来 源 数据 的 关联 和 存储 ,需要 对 学 
者 元 数据 进行 逻辑 结构 设计 ,以 便 构 建 关 系 型 数据 库 。 
按照 数据 库 第 三 范式 (3NF) 将 学 者 元 数据 E-R 模型 转 
换 为 关系 模型 ,日 满足 第 一 范式 与 第 二 范式 ,构建 相关 


图 2 学 者 库 学 者 元 数据 概念 结构 框架 
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郑 郧 ， 曾 建 勋 . 数字 图 书馆 学 者 库 构 建 方 式 研究 [J]. 图 书 情报 工作 ,2020 ,64(5) :133 - 140. 


数据 表 , 实 现 不 同 数据 表 的 关联 见 图 3。 学 者 ID 关联 
学 者 成 果 信息 表 , 可 以 集中 快速 展示 学 者 所 有 成 果 ; 学 
者 ID 也 是 关联 学 者 相关 属性 或 特征 的 基础 ,这 样 在 不 


同 字段 实现 不 同 表 间 的 关联 , 当 学 者 数据 产生 更 新 、 变 
动 时 ,相关 的 数据 表 和 字段 进行 相应 更 新 。 
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3 己基 于 数字 图 书馆 的 学 者 库 总 体 框架 及 
构建 流程 


3.1 基于 数字 图 书馆 的 学 者 库 总 体 框架 设计 

基于 数字 图 书馆 构建 学 者 库 ,需要 依托 数字 图 书 
馆 的 技术 体系 结构 和 信息 体系 结构 ,借助 数字 图 书馆 
资源 加 工 采 集 系 统 、 异 构 资源 整合 系统 、 数 字 资 源 的 管 
理 系 统 、 资 源 调度 系统 、 用 户 管理 系统 等 系统 平台 , 设 
计 学 者 库 构 建 总 体 框架 , 见 图 4。 同 时 汇集 不 同 来 源 
的 学 者 数据 ,采集 、 加 工 、 整 合 \ 存 储 学 者 相关 学 术 数 
据 、 学 术 资 源 等 数字 对 象 ,并 进行 学 术 网 络 建 模 分 析 ， 
最 终 实现 学 者 数据 的 应 用 。 

数字 图 书馆 学 者 库 以 互联 网 资源 和 数字 图 书馆 资 
源 为 数据 来 源 ,通过 数字 资源 采集 加 工 系统 ,基于 
OAI-PMH 协议 收割 学 术 资源 元 数据 ,收集 数字 化 文 
档 、 出 版 物 等 数字 化 信息 。 基 于 数字 对 象 系统 将 数字 


资源 按照 描述 数字 对 象 的 条 例 和 规则 加 以 描述 ,生成 
元 数据 与 调度 码 , 共 同 构 成 数字 对 象 。 在 整合 层 进行 
资源 的 去 重合 并 ,进行 数字 资源 的 标准 化 加 工 ; 借 助 数 
字 图 书馆 异 构 资源 整合 系统 ,实现 数字 图 书馆 内 外 部 
元 数据 、 资 源 的 整合 。 基 于 数字 资源 管理 与 存储 系统 ， 
根据 数字 图 书馆 分 布 式 存 储 和 学 者 学 术 资 源 多 来 源 、 
多 渠道 分 布 的 特点 ,采取 元 数据 集中 存放 、 数 字 对 象 分 
布 存放 的 存储 方式 存储 数据 。 在 学 者 数据 整合 与 存储 
的 基础 上 对 学 者 进行 建 模 分 析 , 将 依据 学 者 元 数据 框 
架 进 行 集成 ,形成 学 者 标签 体系 ,为 学 者 画像 提供 基 
础 。 以 文献 数据 和 社交 网 络 为 基础 ,进行 挖掘 与 分 析 ， 
从 不 同学 者 .不 同学 术 资 源 间 的 网 状 关联 中 ,构成 学 术 
网 络 模型 ,揭示 合作 关系 网 络 。 根 据 学 者 特征 ,对 学 者 
聚 类 ,挖掘 相似 学 者 ,揭示 学 术 团 队 。 以 数字 图 书馆 资 
源 发 布 与 用 户 检 索 系 统 为 基础 构建 服务 平台 ,将 学 者 
资源 最 终 应 用 于 学 者 评价 学 者 画像 .知识 管理 .科研 
管理 .学 者 检索 和 学 者 精准 推荐 等 。 
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图 4 基于 数字 图 书馆 的 学 者 库 构 建 框架 


;局 基于 数字 图 书馆 的 学 者 库 构 建 流程 
< 十 基于 数字 图 书馆 的 学 者 库 的 构建 , 需 依托 数字 图 
自身 资源 与 平台 ,对 不 同 数据 来 源 进 行 采集 ,通过 
演 湖 名 称 规范 文档 和 唯一 标识 符 实 现 学 者 识别 ,对 数 
进行 聚合 . 消 歧 清洗 ,形成 学 者 基本 资源 集 ;在 此 
基础 上 根据 进 选 策 咯 选 定 目标 学 者 ,通过 学 者 认领 实 
现 窒息 与 成 果 的 确认 ;通过 特征 挖 气 和 关系 抽取 完成 
对 读者 数据 和 资源 的 加 工 ,最 终 实 现 学 者 库 的 服务 与 
应 由。 设计 数字 图 书馆 学 者 库 构建 流程 见 图 5, 其中， 
学 属 库 构建 的 关键 性 步骤 如 下 : 
3. 合 |。 多 源 数据 采集 
数字 图 书馆 应 该 发 挥 分 布 式 资源 管理 的 特色 ,与 
不 同 国内 外 知名 数据 库 商 合作 ,丰富 学 者 库 构建 的 基 
础 学 术 文献 资源 ;运用 机 器 学 习 原理 和 自动 追踪 方式 ， 
从 数字 图 书馆 所 拥有 的 学 术 文献 资源 中 控 气 学 者 学 术 
成 果 及 利用 信息 ;同时 ,发 现 和 收集 网 络 资源 中 学 者 主 
页 人物 百科 学术 新 闻 等 学 者 相关 网 页 ,丰富 和 完善 


服务 与 应 
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剔除 低 质 量 的 数据 ,补充 缺失 字段 等 。 数 据 整合 环节 
的 主要 任务 则 是 将 不 同 来 源 的 数据 汇聚 ,其 重复 数据 
对 于 存在 部 分 字段 不 一 致 的 数据 进行 冲突 处 理 。 在 此 
基础 上 ,借助 ORCID .ResearcherID 等 学 者 唯一 标识 符 ， 
学 者 名 称 规范 文档 以 及 机 器 学 习 技术 进行 学 者 姓名 消 
靶 .资源 与 学 者 的 关联 ,以 实现 学 者 库 资 源 的 精准 、 全 
面 聚 合 。 
3.2.3 ”学 者 北 选 

以 数字 图 书馆 收录 文献 的 作者 作为 洲 选 范围 , 针 
对 学 者 库 建设 的 不 同 应 用 目标 ,需要 设置 发 文 .被 引 冰 
值 等 定量 指标 或 学 者 身份 等 定性 指标 ,制定 学 者 入选 
标准 。 从 学 者 身份 ,学术 成 就 ,专业 技能 等 角度 设计 学 
者 洲 选 策略 ,挑选 出 有 收录 价值 学 者 ,如 高 产 、 高 被 引 
作者 或 院士 “ 千 人 计划 ”学 科 带 头 人 等 热门 学 者 作 
为 重点 收录 目标 。 使 用 标识 符 关联 目标 学 者 ,可 以 根 
据 需 求 对 在 库 学 者 进行 编码 ,或 者 直接 与 ORCID、Re- 
searcherID 等 常用 唯一 标识 符 进行 链接 ,对 遵 选 学 者 进 


学 者 相关 信息 ,获取 其 最 新 的 学 术 动 态 。 学 者 库 建设 
不 是 一 路 而 就 的 ,需要 建立 信息 采集 的 更 新 机 制 ,持续 
进行 资源 的 采集 与 更 新 ;依据 互联 网 页 面 的 布局 及 对 
应 的 学 者 元 数据 变化 ,建立 信息 抓 取 监测 机 制 , 及 时 完 
善 数 据 抓 取 中 的 问题 。 
3.2.2 学 者 数据 整合 

对 采集 的 多 来 源 学 术 信息 数据 进行 清洗 、 整 合 与 
基于 学 者 的 聚合 ,是 学 者 库 资 源 建 设 环节 的 重要 工作 。 
数据 清洗 环节 的 主要 任务 是 实现 采集 数据 的 规范 化 ， 


行动 态 更 新 ,更 新 避 选 对 象 与 范围 。 对 文献 元 数据 和 
学 者 元 数据 的 提取 与 加 工 , 突 出 了 学 者 特征 ,形成 可 读 
取 \ 可 储存 、 可 关联 、 可 展示 的 学 者 元 数据 。 
3.2.4 特征 挖掘 与 关系 抽取 

以 闲 选 学 者 为 基础 ,参照 建立 的 学 者 数据 逻辑 结 
构 框 架 ,使 用 命名 实体 识别 技术 识别 学 者 的 相关 学 术 
实体 、 属 性 及 关系 ,并 进行 实体 抽取 与 属性 抽取 。 根 据 
学 者 元 数据 进行 统计 与 推理 ,挖掘 学 者 的 学 术 属 性 特 
征 。 对 学 者 个 人 身份 特征 进行 梳理 ,对 学 术 情 况 进 行 
计量 ,对 学 者 间 的 特征 信息 进行 关系 计算 ,不仅 形成 如 
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发 文 量 .h 指数 等 学 术 评 价 指标 和 工作 经 历 等 学 者 学 
术 线 性 的 发 展 轨 迹 ,还 可 形成 合作 、 引 用 等 网 状 的 学 术 
关系 。 继 而 进行 学 者 间 引 文 关 系 .合作 关系 .社交 关系 
的 挖掘 与 分 析 , 抽 取 学 者 与 各 科研 实体 间 的 学 术 关系 ， 
建立 学 术 关 系 网 络 模型 。 
3.2.5 成 果 认 领 与 管理 

在 学 者 相关 数据 集成 后 ,需要 对 整合 后 的 学 者 信 


进 
整合 后 的 成 果 进 行 确认 、 对 个 人 信息 进行 维护 , 故 该 环 
只 针对 使 用 学 者 库 的 学 者 或 联合 科研 管理 部 门 进 


4.2 ”搭建 科研 管理 平台 ,融入 科研 管理 过 程 

与 科研 管理 结合 , 既 可 以 服务 科研 管理 部 门 ,也 有 
助 于 丰富 和 完善 学 者 库 信息 ,提升 学 者 库 质量 。 将 学 
者 库 构建 融入 成 果 收集 ,成 果 考 核 . 科 研 评价 .项目 申 
报 等 科研 管理 环节 ,作为 学 术 成 果 提 交 和 职称 评定 和 
科研 考核 ,项 目 申请 的 基础 数据 ,方便 和 优化 机 构 内 部 
科研 绩效 管理 ,进行 学 者 学 术 产 出 统计 与 管理 。 同 时 对 
学 者 填报 信息 逐一 审查 ,确保 学 者 信息 和 学 术 资 源 的 完 
整 性 和 准确 性 ,形成 科研 信息 申报 审查 机 制 ,可 以 强化 
学 术 规范 ,避免 科研 失信 。 此 外 ,科研 管理 平台 中 的 信 


成 成 果 认领 。 引 导 学 者 通过 学 者 库 知识 管理 平台 , 完 
成 学 术 成 果 的 认领 ,个 人 信息 编辑 和 修改 以 及 学 术 成 
果 的 统计 与 导出 。 采 取 机 器 学 习 与 人 工 审核 相 结 合 的 
方式 对 学 者 学 术 成 果 进行 验证 。 对 于 注册 加 入 学 者 库 
的 学 者 ,将 整合 后 的 学 者 信息 推送 至 学 者 账号 ,学 者 对 
资源 进行 认领 。 若 审核 通过 , 则 对 学 者 信息 进行 特征 提 
取 : 若 不 通过 , 则 允许 学 者 对 进行 编辑 ,并 重新 整合 至 学 
着 信息 集合 中 ,实现 循环 的 审核 与 更 新 机 


基于 数字 图 书馆 的 学 者 库 构 建 与 应 用 


一 


be 


基 束 构建 与 应 用 的 同步 推进 。 为 改善 学 者 库 效 果 , 吕 


要 激励 学 者 积极 参与 信息 的 完善 与 审核 ;对 接 科研 管 
理 年 台 ,提高 学 者 库 构 建 基础 数据 的 质量 。 面 向 管理 
机 牺 , 可 以 推进 其 学 者 库 在 科研 过 程 管理 .人 才 管理 、 
资 饶 建 设 中 的 应 用 ;面向 学 者 ,可 以 推进 学 者 库 在 其 学 
者 知识 管理 ,学术 信息 资源 精准 服务 中 的 应 用 。 
4.1 增加 展示 与 宣传 效果 ,增强 学 者 参与 动力 

受 和 人 库 资源 质量 及 技术 限制 ,全 面 准确 地 采集 学 
者 信息 .进行 高 精度 的 学 者 姓名 消 歧 仍 是 难点 ,因此 学 
者 库 需 要 提升 学 者 建设 与 使 用 学 者 库 的 参与 度 ,才能 
提升 学 者 数据 构建 的 全 面 性 和 准确 性 。 学 者 页 面 与 个 
人 的 学 术 形象 息息相关 ,能 够 吸引 学 者 丰富 和 维护 个 人 
的 信息 ,从 而 提升 数据 准确 性 。 将 学 者 及 其 信息 的 展示 
作为 增强 学 者 参与 学 者 库 构建 与 应 用 的 动力 ,在 学 者 页 
面 通过 计量 分 析 、 可 视 化 展示 等 手段 ,帮助 学 者 提升 学 
:影响 力 ; 推 送 热门 学 者 主页 ,增加 对 学 者 库 个 人 展示 
功能 的 宣传 ,激发 学 者 成 果 认领 .信息 维护 完善 个 人 主 
页 的 热情 ;吸引 学 者 使 用 学 者 库 资源 而 产生 的 访问 . 济 
览 下 载 等 行为 数据 可 以 作为 资源 质量 评价 的 参考 。 通 
过 学 者 的 认领 应 用 和 互动 ,提升 学 者 库 信息 质 量 。 


息 都 是 学 者 确认 后 的 时效 性 较 强 的 信息 ,因此 可 以 将 
其 作为 学 者 库 构 建 的 数据 来 源 ,提升 入 库 信息 质量 。 
4.3 ”与 人 才 识 别 相 结 合 ,服务 于 团队 和 专题 资源 建设 
学 者 库 对 学 者 进行 特征 挖掘 、 关 系 抽取 , 按 领域 、 
学 科 、 专 业 或 单位 对 学 者 进行 有 效 类 分 ,可 以 识别 和 发 
现 学 者 擅长 精通 和 潜在 学 术 领 域 ,应 用 于 不 同学 科 的 
人 才 识 别 与 人 才 选 择 ,成 为 专家 洲 选 .科研 评审 项目 
支持 的 专家 人 才 储 备 库 。 针 对 机 构 学 者 进行 资源 建 
设 , 集 成 某 一 机 构 或 某 一 领域 的 专业 学 者 ,形成 “ 专 、 
精深 ”的 学 科 专 题 资 源 库 ,拓展 机 构 知 识 库 特 色 资 源 。 
4.4 与 知识 管理 相 结合 ,兼顾 学 者 存档 功能 
对 学 者 而 言 ,学 者 库 圳 括 了 学 者 自身 的 相关 学 术 
信息 和 成 果 , 是 学 者 知识 管理 的 工具 和 平台 ,也 是 学 者 
有 效 存储 个 人 知识 的 场所 ,可 以 作为 开放 获取 自 存储 
实现 的 绿色 仓储 ;实现 学 者 学 术 成 果 的 添加 、 编 辑 、 删 
除 , 将 学 者 库 打 造成 学 者 个 人 知识 库 ; 不 仅 将 学 者 的 学 
术 资 源 进行 集成 ,还 对 学 者 信息 进行 结构 化 梳理 ,帮助 
学 者 厘清 学 术 发 展 路 线 。 
4.5 构建 学 者 画像 与 学 者 模型 ,拓展 精准 服务 功能 
将 学 者 库 租 入 知识 发 现 .科研 管理 .学 术 社 区 等 科 
研 创新 平台 ,能 更 好 地 为 学 者 和 科研 机 构 提 供 信 息 服 
务 。 学 者 库 集 成 不 同 来 源 的 学 者 资源 ,进行 学 者 识别 ， 
实现 学 术 资 源 的 姓名 消 靶 , 能 提供 学 者 及 其 成 果 的 搜 
索 和 发 现 服务 ;以 学 者 为 单位 组 织 资源 ,从 不 同 角度 刻 
画 学 者 学 术 特 征 ,能 够 为 科研 管理 平台 提供 基础 数据 ， 
提供 学 者 计量 和 评价 服务 ;运用 学 者 库 数据 挖掘 学 者 
学 科 兴 趣 发展 趋势 等 ,构建 学 者 画像 和 用 户 信 息 模 
型 , 通 近 学 者 客观 实际 ,为 数字 图 书馆 学 者 精准 资源 推 
送 服务 商定 基础 ,推荐 相关 学 者 ,促进 学 者 交流 与 合 
作 。 
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Study on the Construction Method of Scholars Repository Based on Digital Library 

Zheng Ang Zeng Jianxun 
Institute of Scientific and Technical Information of China, Beijing 100038 
Absiract: | Purpose/significance | From the perspective of the utilization and arrangement of digital library re- 
sources, this paper designs the construction mode of scholar data identification and scholar repository ,which helps to 
improve the efficiency and characteristic service of digital library resources construction. | Method/process | This 
paper investigated the research and practice of scholar database at home and abroad from 4 aspects: the source of 
scholar selection and collection, the content and framework of scholar description, the construction and application of 
scholar repository. By analyzing the characteristics and attributes of scholars, studying the structured expression of 
scholars data, this paper put forward the construction process and overall framework of scholar repository based on 
digital library. | Result/conclusion | This paper puts forward the promotion strategy of building and application of 
scholar repository, emphasizes that scholar repository should be integrated into the scientific research management 
process, mobilize scholars to participate in the construction, increase the effect of exhibition and publicity, combine 
with talent identification, serve the construction of team and thematic resources. Tt is also important to combine with 
knowledge management, take into account the functions of scholar archive and scholar portrait, and expand the pre- 
cise service function. 
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